Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны
Аннотация:
Введение. В настоящее время часто для различных задач обработки естественного языка требуются большие наборы данных. Однако для многих задач сбор большого набора данных является трудоемким, дорогостоящим процессом и требует привлечения экспертов. Увеличение объема информации возможно достичь с использованием методов аугментации данных. Вместе с тем использование классических подходов может привести к включению в корпус данных фраз, которые отличаются по стилю речи и лексикону целевой персоны. Это сопровождается изменением целевого класса и появлением реплик с неестественным использованием лексики и отсутствием смысла. Предложен новый метод аугментации тестовых данных, учитывающий стиль и лексикон персоны. Метод. В работе разработан новый метод аугментации текстовых данных, сохраняющий индивидуальные речевые характеристики и словарный запас. Основная идея метода заключается в формировании индивидуальных шаблонов для каждого человека на основе анализа синтаксических деревьев высказываний и последующего создания новых реплик по сформированным шаблонам. Основные результаты. Метод апробирован на задаче оценки эмоционального состояния пользователя в диалоге. Исследования проведены для датасетов на английском и русском языках. Предложенный метод позволил повысить качество решения этих задач как для английского, так и для русского языков. Получено увеличений значений метрик accuracy и weighted F1 для разных моделей. Обсуждение. Результаты работы могут быть применены для повышения метрик accuracy и weighted F1 моделей, предназначенных для решения различных задач для английского и русского языков.
Ключевые слова:
Постоянный URL
Статьи в номере
- Определение типа действия ингибиторов гидратообразования по их инфракрасным спектрам
- Спектроскопия комбинационного рассеяния света в исследованиях процессов инактивации бактериальных микроорганизмов
- Численное исследование влияния концентрации метгемоглобина в крови на поглощение света в коже человека
- Низкотемпературная ячейка для инфракрасных фурье-спектрометрических исследований углеводородных веществ
- Особенности выращивания твердых растворов Ga1–xInxAs на подложках GaAs в поле температурного градиента через тонкую газовую зону
- Усовершенствованный протокол безопасности на основе AES-GCM для защиты связи в интернете вещей
- Атаки на основе вредоносных возмущений на системы обработки изображений и методы защиты от них
- Сверхвысокое разрешение изображения магнитно-резонансной томографии головного мозга с использованием дискретного косинусного преобразования и сверточнойнейронной сети
- Верификация событийно-управляемых программных систем с использованием языка спецификации взаимодействующих автоматных объектов
- Интеллектуальная система адаптивного тестирования
- Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания
- Сегментация опухоли головного мозга на магнитно-резонансной томографии с использованием нечеткого деформируемого слияния и алгоритма Dolphin-SCA
- Оптимизация систем отслеживания человека в виртуальной реальности на основе нейросетевого подхода
- Погрешности алгоритма демодуляции с генерируемой фазой несущей, вносимые фильтром низкой частоты
- Моделирование процесса корректировки формы роторов шаровых гироскопов
- Метод пространственного мультиплексирования в многоантенных системах связи
- Математическое моделирование теплообменного аппарата с учетом сильной зависимости вязкости нефти от температуры
- Подход к формированию обобщенных параметров технического состояния сложных технических систем c использованием нейросетевых структур
- Численное моделирование газодинамики при работе широкодиапазонного ракетного сопла с пористой вставкой
- Точное решение задачи отражения ударной волны от стенки, экранированной слоем газовзвеси
- Адаптивный наблюдатель переменных состояния нелинейной нестационарной системы с неизвестными постоянными параметрами и запаздыванием в канале измерений
- RuLegalNER: новый датасет для распознавания именованных юридических сущностей на русском языке